آموزش حل 10 مشکل Hadoop'able [ویدئو]

Solving 10 Hadoop'able Problems [Video]

نکته: آخرین آپدیت رو دریافت میکنید حتی اگر این محتوا بروز نباشد.
نمونه ویدیوها:
توضیحات دوره: اکوسیستم Apache Hadoop یک ابزار محبوب و قدرتمند برای حل مشکلات کلان داده است. با ابزارهای رقیب بسیار زیادی برای پردازش داده ها، بسیاری از کاربران می خواهند بدانند کدام مشکلات خاص برای Hadoop مناسب است و چگونه آن راه حل ها را پیاده سازی کنند. برای دانستن اینکه چه نوع مشکلاتی قابلیت Hadoop را دارند، خوب است با درک اولیه اجزای اصلی Hadoop شروع کنید. شما در مورد اکوسیستم طراحی شده برای اجرا در بالای Hadoop و همچنین نرم افزاری که در کنار آن مستقر شده است آشنا خواهید شد. این ابزارها بلوک های ساختمانی را برای ساخت برنامه های پردازش داده به ما می دهند. این دوره بخش‌های اصلی اکوسیستم Hadoop را پوشش می‌دهد و به شما کمک می‌کند تا درک گسترده‌ای داشته باشید و شما را سریع راه‌اندازی کند. در مرحله بعد، تعدادی از مشکلات رایج را به عنوان پروژه های مطالعه موردی که Hadoop قادر به حل آن است، توصیف می کند. این بخش‌ها توسط پروژه‌های مختلف به بخش‌هایی تقسیم می‌شوند که هر کدام به عنوان یک مورد استفاده خاص برای حل مشکلات کلان داده عمل می‌کنند. در پایان این دوره، شما با طیف گسترده ای از نرم افزار Hadoop و نمونه هایی از نحوه استفاده از آن برای حل مشکلات رایج داده های بزرگ آشنا خواهید شد. [*] به طور خلاصه اکوسیستم داده بزرگ Hadoop را کاوش کنید [*] پردازش داده‌های پرداخت از یک جریان رویداد با استفاده از API پخش جریانی: Payment Analyzer [*] با استفاده از Spark Streaming ترافیک BOT را شناسایی کنید، داده های گزارش را قابل پرس و جو کنید و داده های مشتری را بررسی کنید [*] تجزیه و تحلیل زنجیره تامین - اقلام پرفروش را به روش جریان پیدا کنید، اقلام پرفروش را افزایش دهید [*] با پرس و جوهای DataFrame، مقادیر ریزش مشتری را به صورت کمی تجزیه و تحلیل کنید [*] تجزیه و تحلیل داده های حسگر IoT را با پاسخ دستگاه به خرابی سیستم و جریان داده انجام دهید [*] محاسبات با عملکرد بالا با تجمعات همسایگی [*] رتبه بندی صفحات با استفاده از Spark GraphX [*] تجزیه و تحلیل تهدید - تجزیه و تحلیل وبلاگ ها برای فعالیت های مشکوک و ناهنجاری ها در ترافیک شبکه [*] استخراج اطلاعات از متن بدون ساختار از طریق Spark DataFrames [*] تجزیه و تحلیل احساسات پست ها را با استفاده از رگرسیون لجستیک انجام دهید و نویسنده یک پست را پیدا کنید [*] با استفاده از Cloudera Sandbox Toolkit، محصولی را که کاربران می خواهند بخرند پیدا کنید [*] از تاریخچه فیلم برای پیشنهاد محتوا و آزمایش و آزمایش با Recommendation Engine استفاده کنید این دوره مهندسین داده و یادگیری ماشین و تحلیلگران داده را هدف قرار می دهد که با حل مسائل داده آشنا هستند و می خواهند یاد بگیرند که چگونه اکوسیستم Apache Hadoop می تواند در نقاط مختلف مورد استفاده قرار گیرد. صنایع برای ایجاد راه حل های نوآورانه برای مشکلات رایج داده ها. [*] به طور خلاصه بیاموزید که چگونه پروژه های کلان داده را از طریق اکوسیستم هادوپ شکست دهید. * * [*] کد عملی را برای یافتن راه حلی برای مشکلات رایج تجاری و فنی خود پیاده کنید. * * [*] راه حل های عملی برای مشکلات گیج کننده و دنیای واقعی شما در کلان داده *

سرفصل ها و درس ها

اجزای اصلی Core Components

  • بررسی اجمالی دوره The Course Overview

  • سیستم فایل توزیع شده Hadoop (HDFS) Hadoop Distributed File System (HDFS)

  • قابلیت محاسبه توزیع شده YARN Distributed Compute Capability YARN

اکوسیستم پایین دست Downstream Ecosystem

  • Apache Hive برای ETL و SQL Like Apache Hive for ETL and SQL Like

  • صف پیام و جذب داده کافکا Message Queuing and Data Ingestion Kafka

  • NoSQL Datastores - Hadoop HBase، Accumulo NoSQL Datastores - Hadoop HBase, Accumulo

  • یادگیری ماشین - Spark و Spark MLlib Machine Learning - Spark and Spark MLlib

  • پردازش جریان - جریان جرقه Stream Processing - Spark Streaming

برنامه های مالی، تجاری و سری زمانی - نظارت بر تجارت Financial, Trade, and Time Series Applications – Trade Surveillance

  • پردازش داده‌های پرداخت از یک جریان رویداد Processing Payment Data from an Event Stream

  • تجمیع پیشرفته با استفاده از Streaming API - PaymentAnalyzer Advanced Aggregations Using Streaming API - PaymentAnalyzer

  • ذخیره داده های سری زمانی در HBase Storing Time Series Data in HBase

AdTech – هدف گذاری تبلیغات AdTech – Ad Targeting

  • تشخیص ترافیک BOT با استفاده از Spark Streaming Detecting BOT Traffic Using Spark Streaming

  • اطلاعات ثبت وب را قابل پرس و جو کنید - Hive Sink Make Web Log Data Queryable - Hive Sink

  • بررسی داده های مشتریان در Hive Investigating Customers Data in Hive

کسب و کار/نقطه فروش - تجزیه و تحلیل تراکنش Business/Point of Sale – Transaction Analysis

  • زنجیره تامین پرطرفدار - یافتن کالای پرفروش به روش جریانی Trending Supply Chain - Finding Top Seller Item in a Streaming Way

  • غنی سازی فروشندگان برتر با اطلاعات اضافی Enriching Top Sellers with Additional Information

تجزیه و تحلیل ریزش مشتری Customer Churn Analysis

  • تجزیه و تحلیل ریزش مشتری (کمی) با استفاده از پرس و جوهای DataFrame Analyzing Customer Churn (Quantitative) Using DataFrame Queries

  • تجزیه و تحلیل ریزش مشتری (مقدار) با استفاده از پرس و جوهای DataFrame Analyzing Customer Churn (Amounts) Using DataFrame Queries

اینترنت اشیا Internet of Things

  • ذخیره سازی داده های سنسور ساختاری با دانه بندی پایین در HBase Storing Low Granularity Structured Sensor Data in HBase

  • مصرف داده های حسگر ذخیره شده در HBase - اسکن و شمارش Consuming Sensor Data Stored in HBase - Scan and Count

  • ایجاد خلاصه در جریان داده از دستگاه ها Building Summaries on Data Streaming from Devices

محاسبات علمی و با کارایی بالا Scientific and High Performance Computing

  • معرفی Spark GraphX ​​- چگونه یک نمودار را نشان دهیم؟ Introducing Spark GraphX - How to Represent a Graph?

  • انجام عملیات نمودار با استفاده از GraphX Perform Graph Operations Using GraphX

  • شمارش درجه رئوس Counting Degree of Vertices

  • تجمعات محله - جمع آوری همسایگان Neighborhood Aggregations - Collecting Neighbors

  • اپراتورهای ساختاری - اجزای متصل Structural Operators - Connected Components

  • رتبه صفحه با استفاده از Spark GraphX Page Rank Using Spark GraphX

تشخیص نفوذ نگرانی های امنیتی - تحلیل تهدید Security Concerns Intrusion Detection – Threat Analysis

  • تشخیص ناهنجاری Anomaly Detection

  • تجزیه و تحلیل گزارش های وب برای فعالیت مشکوک و بارگیری در Spark Analyzing Web Logs for Suspicious Activity and Loading into Spark

  • پیاده سازی خوشه بندی - انتخاب تعداد خوشه ها Implementing Clustering - Choosing Number of Clusters

  • تشخیص ناهنجاری ها در ترافیک شبکه Detecting Anomalies in Network Traffic

تجزیه و تحلیل متن Text Analysis

  • تجزیه و تحلیل پست برای یک نویسنده Analyzing Post for an Author

  • استخراج اطلاعات از متن بدون ساختار Extracting Information from Unstructured Text

  • استخراج اطلاعات از طریق Spark DataFrame Extracting Information Via Spark DataFrame

  • تحلیل احساسات پست ها با استفاده از رگرسیون لجستیک Sentiment Analysis of Posts Using Logistic Regression

  • پیدا کردن نویسنده یک پست Finding an Author of a Post

انبار داده/دریاچه داده/جعبه شنی داده ها Data Warehouse/Data Lake/ Data Sandbox

  • دانلود و تنظیم Cloudera Sandbox Downloading and Setting Cloudera Sandbox

  • پیدا کردن محصولاتی که کاربران می‌خواهند با استفاده از جعبه ابزار Cloudera Sandbox بخرند Finding What Products Users Wants to Buy Using Cloudera Sandbox Toolkit

شخصی سازی Personalization

  • استفاده از تاریخچه فیلم ها برای پیشنهاد محتوای جالب Using Movies History to Suggest Interesting Content

  • تست و آزمایش با Recommendation Engine Testing and Experimenting with Recommendation Engine

نمایش نظرات

Packtpub یک ناشر دیجیتالی کتاب‌ها و منابع آموزشی در زمینه فناوری اطلاعات و توسعه نرم‌افزار است. این شرکت از سال 2004 فعالیت خود را آغاز کرده و به تولید و انتشار کتاب‌ها، ویدیوها و دوره‌های آموزشی می‌پردازد که به توسعه‌دهندگان و متخصصان فناوری اطلاعات کمک می‌کند تا مهارت‌های خود را ارتقا دهند. منابع آموزشی Packtpub موضوعات متنوعی از جمله برنامه‌نویسی، توسعه وب، داده‌کاوی، امنیت سایبری و هوش مصنوعی را پوشش می‌دهد. محتوای این منابع به صورت کاربردی و به‌روز ارائه می‌شود تا کاربران بتوانند دانش و توانایی‌های لازم برای موفقیت در پروژه‌های عملی و حرفه‌ای خود را کسب کنند.

آموزش حل 10 مشکل Hadoop'able [ویدئو]
جزییات دوره
3 h 12 m
40
Packtpub Packtpub
(آخرین آپدیت)
از 5
ندارد
دارد
دارد
Tomasz Lelek
جهت دریافت آخرین اخبار و آپدیت ها در کانال تلگرام عضو شوید.

Google Chrome Browser

Internet Download Manager

Pot Player

Winrar

Tomasz Lelek Tomasz Lelek

توماس للک یک مهندس نرم افزار است که بیشتر در جاوا و اسکالا برنامه نویسی می کند. او از طرفداران معماری میکروسرویس و برنامه نویسی کاربردی است. او هر روز زمان و تلاش قابل توجهی را برای بهتر شدن اختصاص می دهد. او اخیراً به فناوری‌های کلان داده مانند Apache Spark و Hadoop پرداخته است. او تقریباً به همه چیزهایی که با توسعه نرم افزار مرتبط است علاقه دارد. توماس فکر می کند که همیشه باید سعی کنیم قبل از حل یک مشکل راه حل ها و رویکردهای مختلف را در نظر بگیریم. او اخیراً در چندین کنفرانس در لهستان - Confitura و JDD (روز توسعه‌دهنده جاوا) و همچنین در گروه کاربری Krakow Scala سخنران بود. می‌توانید ویدیوی JDD را در اینجا پیدا کنید: https://www.youtube.com/watch?v=BnORjQbnZNQ&t - بحث ML Spark. او همچنین یک جلسه برنامه نویسی زنده در کنفرانس Geecon برگزار کرد. او در حال حاضر روی این وب سایت با استفاده از ML کار می کند: http://www.allegro.pl